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中 文科 研 论文 未 被 引 探索 [基于 关键 词 的 内 容 因 素 影响 研究 
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以 图 书馆 情报 与 文献 学 为 例 


摘要 : [目的 /意义 ] 从 内 容 差 异 来 探索 论文 未 被 引 规 律 ,不 仅 是 论文 未 被 引 现 象 研究 的 重要 内 容 , 也 有 利 
TARGET ESSE X AAA GER. DA AER] VA CSSCI 作为 来 源 数据 库 , 以 图 书馆 情报 与 文献 学 为 样本 
学 科 , 依 据 该 学 科学 者 的 h 指数 分 布 特征 随机 选择 200 名 学 者 作为 样本 对 象 ,下 载 其 1998 -2015 年 的 所 有 被 收 
录 论 文 数据 ;下 载 样本 学 科 1998 -2015 年 的 所 有 收录 论文 数据 ,并 离 析出 对 应 被 引 论文 、 高 被 引 论文 的 相关 数 
据 ; 以 6 年 为 时 间 窗 口 , 将 发 表 后 1-3 年 内 被 引 的 论文 定义 为 被 引 论文 ,其 余 的 为 未 被 引 论文 ; 析 取 未 被 引 论 
六 被 引 论文 学 科 整 体 论文 及 高 被 引 论 文 的 关键 词 , 按 关键 词 频 数 从 高 到 低 排 序 ,选取 排序 前 50 的 关键 词 构 
成 美 键 词 向 量 ,计算 关键 词 向 量 的 内 积 、 欧 几 里 得 长 度 和 余弦 相似 度 。[ 结果 /结论 ] 图 书馆 情报 与 文献 学 领域 
e 世纪 初 形成 较为 稳定 的 研究 内 容 体系 ,其 未 被 引 论文 与 学 科 整 体 论文 .被 引 论文 .高 被 引 论文 的 内 容 相似 


订 都 较 低 ,表明 研究 内 容 对 论文 未 被 引 有 重要 影响 。 


O 关键 词 : 未 被 引 论文 零 被 引 论文 ”图 书馆 情报 与 文献 学 ”论文 内 容 特征 论文 关键 词 ”向 量 空间 模型 
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科学 交流 系统 是 以 相关 为 基础 的 知识 生产 ,交流 
上 与 利用 过 程 ,而 引用 关系 是 关联 这 些 环 节 的 核心 要 素 ， 
引 多 分 布 分 析 则 成 为 科学 计量 学 的 核心 研究 主题 "1，。 
然而 ,目前 引文 分 布 研究 更 多 聚焦 于 其 核心 区 域 , 较 少 
半 浅 未 被 引 或 引用 较 少 的 长 尾部 分 ,但 任何 学 科 或 任 
何 地 方 出 版 的 论文 中 ,普遍 存在 一 些 从 未 受到 任何 引 
用 的 论文 站。 因此 ,引文 分 布 规律 的 完整 认 知 不 可 或 
缺 地 包含 未 被 引 现 象 研究 。 

关于 论文 未 被 引 问题 很 早 就 受到 学 者 关注 ,但 大 
规模 研究 则 是 在 20 世纪 90 年 代 。 目 前 关于 未 被 引 现 
象 研究 主要 集中 在 以 下 3 477r ili : 论文 未 被 引 现 
象 的 测度 指标 设计 及 模型 研究 ,使 用 的 测度 指标 主要 
是 未 被 引 率 ; 论文 未 被 引 现象 的 影响 因素 , 主要 聚焦 
于 参考 文献 数量 ,作者 数量 .论文 长 度 .论文 所 属 学 科 、 
国际 合作 关系 .学科 跨度 .发 文 机 构 以 及 刊载 期 刊 等 方 
面 对 论 文 是 否 被 引 的 影响 关联 程度 ; 论文 未 被 引 的 分 
布 特征 与 分 布 规律 ,包括 特定 期 刊 分 布 .特定 学 科 领 域 


分 布 . 国 家 分 布 等 ,尤其 集中 于 特定 期 刊 分 布 以 及 这 些 
分 布 特征 与 规律 在 实践 中 的 应 用 探索 。 

然而 ,无 论 是 引文 分 析 还 是 未 被 引 现象 研究 ,通常 
只 是 从 形式 特征 来 展开 分 析 。 随 着 基于 内 容 引文 分 析 
方法 的 出 现 ” ,如 何在 未 被 引 现 象 研究 中 引入 基于 内 
容 的 方法 显得 尤其 重要 。 本 研究 尝试 从 未 被 引文 献 与 
其 它 文献 (如 学 科 整 体 文献 .引用 文献 及 高 被 引文 献 
等 ) 的 内 容 差 异 来 探究 文献 内 容 对 未 被 引 的 影响 ,为 未 
被 引 现 象 研究 引入 内 容 分 析 方法 提供 一 种 可 能 ,同时 
扩展 基于 内 容 的 引文 分 析 方 法 范畴 ,丰富 情报 学 的 研 
究 内 容 。 


2 相关 研究 工作 


论文 未 被 引 作为 科研 成 果 的 一 个 重要 特征 在 20 
世纪 50 年 代 就 受到 关注 ,E.Garfield 指出 论文 未 被 引 
的 影响 因素 很 多 ”。 大 部 分 未 被 引 影响 因素 研究 都 集 
中 在 文献 外 部 特征 ”” ,如 作者 数量 、 关 键 词 数量 、 标 
题词 数量 .参考 文献 数量 期刊 年 龄 .期刊 价格 等 ,尤其 
是 从 特定 学 科 期 刊 人 手 的 研究 相对 较 多 "” 。 即 使 关 
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注 关 键 词 .标题 词 这 些 反 映 文献 内 容 特 征 的 因素 ,也 仅 
是 从 数量 特征 切入 , 较 少 从 内 容 视角 来 探讨 对 未 被 引 
的 影响 程度 。 

但 是 也 有 少量 学 者 关注 到 内 容 因素 对 未 被 引 的 影 
响 。 温 芳 芳 通过 有 零 被 引 论文 与 高 被 引 论文 的 比较 , 基 
于 关键 词 共 现 网 络 发 现 高 被 引 论文 更 关注 研究 热点 ， 
而 未 被 引 论文 的 研究 热点 关键 词 绝对 频次 低 且 各 关键 
词 的 分 布 频率 较为 平均 ; 钟 镇 以 高 频 叙 词 作 为 研究 
热点 ,比较 9 种 农业 经 济 与 政策 SCI 源 刊 高 被 引 论文 
与 零 被 引 论文 的 选 题 ,研究 结果 显示 绝 大 多 数 期 刊 的 
高 被 引 论文 在 总 体 上 都 有 着 比 零 被 引 论文 更 高 的 热点 
叙 词 分 配 率 ;高 继 平 、 潘 云 涛 和 武夷 山 以 光谱 学 领 
域 未 被 引 论文 作为 对 象 ,通过 主题 分 析 发 现 未 被 引 论 
英 的 主题 分 布 与 学 科 整 体 的 热点 主题 分 布 有 所 不 
um ; 李 江 在 评述 科学 “ 睡 美 人 "与 “县 花 一 现 ” 文 献 时 
提 到 ,文献 主题 对 文献 的 引用 趋势 存在 一 定 程度 的 影 
唾 ' 从 另 一 个 侧面 反映 出 未 被 引 受到 文献 内 容 的 影 


个 


已 有 这 些 与 内 容 相关 的 未 被 引 研究 ,要 么 是 比较 
SR 引 与 高 被 引 的 关键 词 频率 分 布 ,要 么 分 析 未 被 引 
与 高 被 引 的 热点 叙 词 分 配 率 ,还 有 的 仅 从 定性 视角 来 
说 天 两 者 在 内 容 上 的 差异 性 ,没有 从 计算 角度 来 分 析 
坟 祝 引 与 高 被 引 的 相 异 性 。 本 研究 期 望 通 过 特定 样本 
学 和 的 未 被 引 论文 与 高 被 引 论文 ,学 科 整 体 论文 .学科 
被 霸 论 文 的 内 容 差异 性 计算 来 探讨 内 容 特征 对 论文 未 
被 [的 影响 。 


3 ”数据 与 方法 


【Wp | 


3.1 数据 获取 

本 研究 以 图 书馆 情报 与 文献 学 为 样本 学 科 , 于 
2016 年 11 月 在 CSSCI 中 采集 样本 学 科 的 相关 数据 ,由 
于 2016 年 引文 数据 不 全 ,因此 所 有 数据 仅 限于 1998 - 
2015 年 发 表 的 期 刊 论文 。 
具体 的 数据 收集 策略 如 下 :中 综合 图 书馆 情报 与 
文献 学 学 者 们 的 h 指数 特征 ,随机 抽取 200 名 学 者 
作为 样本 对 象 ;@ 从 CSSCI 获取 以 样本 学 者 为 第 一 作 
者 .于 1998 -2015 年 期 间 发 表 期 刊 论文 的 详细 信息 ， 
以 Ext 文件 方式 存储 下 载 的 各 数据 项 ;@@ 从 CSSCI 获取 
收录 的 图 书馆 情报 与 文献 学 学 科 1998 - 2015 年 所 有 
论文 数据 ,获取 所 有 论文 的 关键 词 与 发 文 后 被 引 数据 ， 
以 xt 文件 方式 存储 下 载 的 各 数据 项 ;四 从 CSSCI 获取 
收录 的 图 书馆 情报 与 文献 学 学 科 1998 - 2015 年 所 有 
论文 数据 的 引文 数据 ,六 选 出 各 年 的 高 被 引 论文 (根据 


选择 时 点 的 统计 数据 ,利用 n=0.749 Wn, 计算 出 高 
被 引 论文 的 最 低 引 用 数 阔 值 ,进而 确定 高 被 引 论文 集 
合 ) ,以 其 为 对 象 获 取 这 些 论 文 的 关键 词 与 被 引 数 据 ， 
以 txt 文件 方式 存储 下 载 的 各 数据 项 。 
3.2 研究 方法 

关于 文献 内 容 的 识别 与 统计 ,最 好 采用 标题 词 表 或 
叙 词 表 进 行规 范 。 然 而 ,中 文 环境 下 缺乏 特定 学 科 的 标 
题词 表 或 叙 词 表 支 持 , 而 论文 关键 词 与 其 内 容 紧 密 相 
连 ,是 论文 内 容 的 最 直观 体现 ,也 是 论文 中 显著 的 标注 
数据 ,因此 本 研究 选择 关键 词 作为 论文 内 容 的 测量 项 。 

分 析 发 现 ,图 书馆 情报 与 文献 学 领域 论文 被 引 高 
峰 期 在 发 表 后 2 -3 年 。 考 虑 到 引用 延迟 现象 ,本 研究 
以 6 年 为 统计 时 间 窗 口 ,以 3 年 为 被 引 分 界 窗 口 ,将 发 
表 后 1 -3 年 内 被 引 的 论文 定义 为 被 引 论文 ,其 余 的 论 
文 定义 为 未 被 引 论文 。 

提取 样本 对 象 的 被 引 论文 ,未 被 引 论文 ,学科 整体 
论文 高 被 引 论文 集合 的 关键 词 , 按 频次 从 高 到 低 进 行 
排序 ,选择 前 50 个 关键 词 构成 词 向 量 空间 ,以 此 为 基础 
分 别 计算 出 各 个 年 度 被 引 论 文 .未 被 引 论文 .学 科 整 体 
论文 高 被 引 论文 之 间 的 相似 度 , 探 究 他 们 之 间 的 内 容 
相关 性 ,以 此 探索 与 揭示 内 容 因 素 对 未 被 引 的 影响 程 
度 。 
3.2.1 关键 词 权 重 计算 通过 CSSCI 获取 1998 - 
2015 年 图 书馆 情报 与 文献 学 领域 各 年 的 发 文 ,以 3 年 
为 一 个 周期 ,利用 Citespace 提取 每 个 周期 的 学 科 关 键 
并 计算 其 词 频 。 假 设 学 科 整 体 论文 集 有 t+ 个 关键 
词 ,其 对 应 的 权重 分 别 是 gs 、g,、…、8,, 关 键 词 权重 g 
计算 公式 如 下 : 


d, 
Ac (E 21,2, 4) 


Hep id, 为 表示 关键 词 k 的 词 频 ,N, 为 表示 论文 
总 数量 ,其 值 大 小 在 [0 ,1 区 间 中 。 

同 理 , 以 获取 的 图 书馆 情报 与 文献 学 领域 200 名 
学 者 1998 - 2015 年 发 文 为 样本 ,分 年 进行 数据 处 理 。 
使 用 自 编 软件 分 别提 取 各 年 被 引 与 未 被 引 关 键 词 及 其 
词 频 , 其 中 被 引 论文 关键 词 及 其 词 频 从 论文 发 表 后 1 
至 3 年 内 有 被 引 的 论文 中 提取 ,而 未 被 引 论文 关键 词 
及 其 词 频 的 提取 则 在 其 余 论 文中 提取 。 采 用 类 似 的 方 
法 分 别 计算 被 引 论文 关键 词 权重 c, 与 未 被 引 论文 关键 
词 权重 nc,。 其 计算 公式 如 下 : 


— 
a 
L 


skuas M Lye 
c= 1 三 上 ,一 ， (Em yr j21,2,7,n) 


其 中 :4; 为 关键 词 i 的 词 频 ,N, 为 计量 窗口 被 引文 
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章 总 数量 ,di 为 关键 词 j 的 词 频 ,N,. 为 计量 窗口 未 被 引 
文章 总 数量 ,其 值 大 小 在 [0,1] 区 间 中 。 

3.2.2 关键 词 向 量 内 积 计 算 被 引 论文 .未 被 引 论 
X .高 被 引 引 论文 ,学科 整体 论文 对 应 的 关键 词 向 量 4 


现象 的 基本 环境 ,也 是 引用 行为 的 基本 约束 条 件 ,因而 
有 必要 揭示 样本 学 科 的 整体 内 容 特征 。 

为 了 刻画 样本 学 科 整 体 在 研究 内 容 上 的 延续 性 与 
差异 性 ,提取 样本 学 科 1998 - 2015 年 所 有 发 文 的 关键 


I> Ce) .一 (ne) (he) 一 (8) 表 示 , 则 可 计算 向 
量 两 两 之 间 的 内 积 来 表示 关键 词 向 量 相关 度 , 即 在 内 
容 上 的 相似 程度 。 

计算 关键 词 向 量 内 积 本 质 上 是 将 两 个 向 量 空间 中 
的 词 项 进行 合并 。 计 算 时 ,各 词 项 可 能 出 现 两 种 情况 : 
一 是 在 被 引 (未 被 引 ) 论文 或 学 科 整 体 论文 的 关键 词 
向 量 权重 为 0; 二 是 两 个 向 量 中 均 不 为 0。 前 一 种 情况 
下 其 计算 结果 取 值 为 0, 后 一 种 情况 下 的 内 积 计算 略 
显 复杂 。 下 面 以 被 引 关键 词 向 量 与 学 科 关键 词 向 量 为 
例 给 出 定义 式 。 

设 被 引 论文 关键 词 集 与 学 科 整 体 论文 关键 词 集 存 
TESTE [ESI gy gy、… 8 与 cl cc 为 共同 语 
评 欠 别 在 学 科 整 体 、 被 引 论文 中 的 权重 , 则 被 引 论文 与 
党 种 整体 论文 的 关键 词 向 量 内 积 计算 公式 为 ， 
co —) * 一 (8) 2 X 6; * g; 

CD 同 理 ,可 定义 其 他 类 别 关键 词 向 量 的 内 积 。 
i-i 关键 词 向 量 的 余弦 相似 度 计算 ”各 年 学 科 整 体 
论 记 .被 引 论文 .未 被 引 论文 .高 被 引 论文 所 涉及 的 关键 
词 数 量 较 多 ,导致 各 关键 词 词 频 相 对 较 小 \ 权 重 数值 较 
/个 最 终 计算 所 得 的 内 积 值 较 小 。 为 此 ,本 研究 进一步 
计 儿 关键 词 向 量 的 余弦 相似 度 , 通 过 余弦 相似 度 的 分 母 
做 昧 准 化 处 理 ,以 消除 不 同样 本 集合 容量 大 小 的 影响 。 
-之 根据 余弦 相似 度 计算 原理 ,可 定义 被 引 论文 与 学 
科 观 体 论文 的 关键 词 向 量 余 孩 相似 度 计 算 公式 为 : 

=>(c) *—>(g) 

eg do») 1 一 (8) d 

同 理 可 定义 其 他 任意 两 类 数据 集 的 余弦 相似 度 计 
算 公 式 。 从 计算 公式 可 见 , 关 键 词 向 量 的 余弦 相似 度 计 
算 公 式 的 分 子 是 向 量 内 积 ,反映 了 共同 关键 词 数量 的 多 
少 ,其 值 越 大 ,内 容 的 相似 度 超 高 ;分 母 是 关键 词 向 量 欧 
几 里 得 长 度 的 乘积 ,而 欧 几 里 得 长 度 反映 了 对 应 向 量 的 
关键 词 数量 多 少 ,其 值 越 大 表明 学 科 的 研究 内 容 较为 集 
中 ,否则 其 研究 内 容 较为 分 散 。 因 此 ,还 可 利用 欧 几 里 
得 长 度 来 探索 样本 对 象 在 研究 内 容 上 的 集中 程度 。 


4 研究 结果 


4.1 样本 学 科 整 体 的 内 容 特征 
样本 学 科 的 整体 内 容 是 论文 被 引 、 未 被 引 、 高 被 引 


Iu 
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词 ,计算 各 年 发 文 内 容 与 其 后 各 年 发 文 内 容 的 关键 词 
向 量 内 积 并 可 视 化 展示 ( 见 图 1) 。 为 了 保证 每 个 时 间 
序列 都 有 足够 的 数据 呈现 ,只 计算 到 2011 年 序列 。 如 
2011 年 序列 , 则 计算 2011 年 与 其 后 的 2012 - 2015 年 
的 向 量 内 积 ,2012 年 为 2011 年 序列 的 1 年 后 ,2013 年 
为 2 年 后 ,以 此 类 推 。 从 图 1 中 可 见 : 随 着 时 间 的 演 
化 ,各 年 与 其 后 各 年 的 内 容 向 量 相似 度 逐 渐 减 小 , 相 邻 
年 度 间 的 关键 词 向 量 相似 度 较 大 , 既 表 明 图 书馆 情报 
与 文献 学 科 在 研究 内 容 上 的 时 间 延 续 性 ,也 表明 研究 
内 容 的 不 断 创新 与 拓展 。 


Para a a a E E EEE MU 
NUOY sU ow «WW 9 ^ ow Wut Aw y QD «M D AB XA 


图 1 1998 -2011 年 各 年 发 文 与 其 后 各 年 发 文 的 
关键 词 向 量 内 积 


以 各 年 与 其 后 各 年 关键 词 向 量 内 积 为 对 象 绘制 成 
时 间 维 度 的 演化 趋势 图 可 见 ,基本 趋势 是 相似 度 先 上 
升 后 逐年 下 降 ,其 中 2002 年 学 科研 究 内 容 与 其 他 年 份 
相似 度 最 高 ( 见 图 2)。 据 此 可 以 推断 ,2002 年 左右 图 
书馆 情报 与 文献 学 科 的 研究 内 容 既 是 前 面 年 份 的 一 种 
凝聚 ,从 较为 分 散 向 较为 集中 方向 发 展 ;其 后 图 书馆 情 
报 与 文献 学 科 的 研究 内 容 向 外 拓展 发 散 ,表现 出 不 断 
分 化 的 发 展 态 势 。 
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2 1998 -2011 年 的 各 年 内 容 向 量 内 积 演化 趋势 
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直人 全 直列 


3 是 样本 学 科 各 年 研究 论文 内 容 的 欧 几 里 得 长 
度 计 算 结 果 , 可 在 一 定 程度 上 反映 样本 学 科 各 年 的 研 
究 内 容 凝聚 度 , 其 值 越 大 则 内 容 凝 聚 度 越 大 ,反之 亦 
然 。 由 图 3 可 见 :2002 年 前 后 ,图 书馆 情报 与 文献 学 科 
的 主要 研究 内 容 较 为 集中 ;之 前 的 各 年 份 在 研究 内 容 
上 有 逐渐 凝聚 的 趋势 ,之 后 的 各 年 份 在 研究 内 容 上 有 
逐渐 拓展 分 化 的 态势 。 因 此 ,2002 年 左右 可 能 是 图 书 
馆 情报 与 文献 学 科研 究 内 容 的 转折 点 。 
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1998 -2015 年 各 年 学 科 内 容 的 欧 几 里 得 长 度 


CE 4 是 依据 1998 - 2015 年 各 年 间 内 容 向 量 的 余 
纺 竹 似 度 绘制 成 的 演化 趋势 图 。 由 图 4 可 知 :所 有 序 
JORE 429 Wi 4-384) :1998 -2000 年 序列 为 一 组 ,其 

I 为 一 组 ,前 者 的 余弦 相似 度 值 比 后 者 低 , 表明 前 
状 广 研究 内 容 上 较为 分 散 ,后 者 的 研究 内 容 更 为 凝聚 ; 
16g - 2000 年 序列 组 的 特征 是 其 后 1 - 3 年 的 研究 内 
RI Re AR DA EB RS ,3 年 以 后 的 向 量 余弦 相似 度 
m o oes -2011 


列 组 其 后 各 年 的 研究 内 容 向 量 余弦 相似 度 没有 明 


似 度 都 保持 在 较 高 且 稳 定 的 水 平 ,特别 是 2002 年 与 其 
后 各 年 的 内 容 向 量 余弦 相似 度 都 保持 最 高 水 平 。 这 说 
明 图 书馆 情报 与 文献 学 科 1998 - 2000 年 的 研究 内 容 
较为 稳定 ,而 2001 年 左右 研究 内 容 出 现 了 一 定 变 化 ， 
2002 年 以 后 各 年 学 科研 究 内 容 又 保持 在 较为 稳定 的 
状态 ,说 明 2001 年 左右 可 能 是 图 书馆 情报 与 文献 学 科 
研究 内 容 发 生 改 变 的 转折 点 。 


5 1998 -2011 年 各 年 间 研 究 内 容 向 量 余弦 
相似 度 的 演化 特征 


综合 上 述 研究 结果 可 以 看 到 :图 书馆 情报 与 文献 
学 科 在 整个 研究 内 容 上 ,21 世纪 初叶 形成 了 较为 稳定 
的 内 容 体系 ,之 前 较为 分 散 的 研究 内 容 逐 渐 凝 聚 成 共 
识 ,其 后 在 共识 基础 上 有 一 定 程度 的 拓展 ,2001 ,2002 
年 可 能 是 整个 学 科 发 展 的 关键 节点 。 分 析 其 中 的 原 
,大 致 有 以 下 两 个 方面 :中 图 书馆 情报 与 文献 学 科 经 
过 几 十 年 的 发 展 逐 渐 走 向 成 熟 ,科学 共同 体 对 于 学 科 
的 基本 内 容 有 了 较为 一 致 的 看 法 ;Co)20 世纪 末 的 大 规 
模 互 联网 应 用 带 来 了 信息 环境 的 深刻 变化 ,为 图 书馆 


显 移 变化 趋势 ,表明 2001 年 以 后 学 科 的 研究 内 容 保持 
相对 稳定 ,但 也 体现 了 一 定 的 拓展 分 化 趋势 。 


4 1998 -2011 年 各 年 间 研 究 内 容 的 向 量 余弦 相似 度 


1998 -2011 年 与 其 后 各 年 不 等 年 限 的 内 容 向 量 余 
弦 相 似 度 演化 发 展 趋势 见 图 5。 从 演化 趋势 可 以 看 
到 :1998 年 与 其 后 1-2 年 的 内 容 向 量 余 弦 相 似 度 较 
高 ,1999 年 与 其 后 1 年 的 向 量 余弦 相似 度 较 高 ,1998 
年 .1999 年 .2000 年 与 2001 年 及 以 后 各 年 的 内 容 向 量 
余弦 相似 度 较 低 ,而 2002 -2015 年 的 内 容 向 量 余弦 相 


情报 与 文献 学 科 的 发 展开 拓 了 新 的 领地 ,研究 范围 不 
断 扩 展 , 以 关键 词 为 表征 的 内 容 也 逐渐 走向 发 散 。 
4.2 被 引 论文 和 未 被 引 论文 的 内 容 差异 特征 

各 年 度 被 引 论文 .未 被 引 论文 与 学 科 整体 论文 的 
关键 词 向 量 内 积 变化 趋势 见 图 6。 从 图 6 可 以 看 到 : 变 
化 趋势 基本 相似 ,被 引 论文 与 学 科 整 体 论文 的 向 量 相 
似 度 总 体 上 高 于 未 被 引 论文 与 学 科 整 体 论文 的 向 量 相 
似 度 ;早期 的 相似 度 差 距 较 大 , 随 着 时 间 的 发 展 差异 越 
来 越 小 ,甚至 在 2011 和 2012 年 未 被 引 论文 与 学 科 整 
体 论文 的 向 量 相似 度 超过 被 引 论文 与 学 科 整 体 论文 的 
相似 度 ,表明 在 学 科 整 体 背景 下 ,研究 内 容 的 同 质 蔡 代 
性 更 强 ,竞争 更 加 激烈 ;被 引 论文 ,未 被 引 论文 与 学 科 
整体 论文 的 内 容 相似 度 整体 上 有 下 降 的 趋势 ,表明 研 
究 内 容 的 发 展 越 来 越 分 散 ,研究 范围 在 不 断 扩 展 。 分 
析 学 者 样本 数据 与 学 科 整 体 数 据 发 现 ,近年 学 科 整 体 
发 文 量 逐 渐 增 大 ,内 容 涉 及 的 范围 越 来 越 广 , 表 现 为 关 
键 词 数量 增多 ,而 本 研究 所 选取 学 者 样本 数据 各 年 数 
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量 相对 平衡 ,这 可 能 是 样本 学 者 论文 与 学 科 整 体 论文 
的 相似 度 逐 年 下 降 的 原因 之 一 。 


被 引 内 积 
一 要 一 未 被 引 内 积 


—- — 68 G8 6 6 6 6 6 G 6 6 6 6 06 


年 


图 6 1998 -2013 年 被 引 、 未 被 引 论文 与 学 科 
整体 论文 内 容 向 量 的 内 积 演化 趋势 


图 7 是 学 科 整 体 论文 .被 引 论文 .未 被 引 论文 的 向 
量 欧 几 里 得 长 度 情况 。 从 图 7 可 以 发 现 :被 引 论文 与 
AES HE ORDRE TA RH UTE OCHO I GEHE FER 
PERAR REXER A EE D IREA, MI K 
B Ll 这 一 方面 与 图 书馆 情报 与 文 


钰 举 科 不 断 拓展 研究 边界 有 关 , 另 一 方面 也 与 样本 数 
据 称 关 。 由 于 学 科 整 体 论文 的 欧 几 里 得 长 度 计算 来 自 
必 往 的 学 科 核心 期 刊 整 体 载 文 ,论文 数量 巨大 ,计算 所 
得 欧 几 里 得 长 度 相对 较 小 ;而 所 选取 样本 数据 来 自学 
下 部分 学 者 , 相 较 而 言论 文 数量 绞 小 ,导致 关键 词 权重 
锐 和 计算 所 得 欧 儿 里 得 长 度 较 相对 较 大 。 


E 
"n 一 一 学 科 整 体 论文 


—— 被 引 论文 
m 一 未 被 引 论文 


7 1998 -2013 年 各 年 学 科 整 体 论文 、 被 引 论文 、 
未 被 引 论 文 内 容 向 量 的 欧 几 里 得 长 度 


8 是 1998 - 2013 年 被 引 论 文 .未 被 引 论文 关键 
词 向 量 的 余弦 相似 度 情 况 。 之 所 以 把 这 两 者 单独 呈 
现 ,原因 在 于 被 引 论文 与 未 被 引 论文 是 以 选择 的 200 
名 样本 学 者 所 发 表 的 论文 为 基础 计算 的 ,其 绝对 值 相 
对 于 学 科 整 体 论文 的 值 较 小 ,计算 值 相 对 较 低 。 由 图 
8 可 见 ,整体 上 两 者 的 向 量 相似 度 逐 年 下 降 , 即 被 引 论 
文 与 未 被 引 论文 两 者 间 内 容 差距 有 增 大 的 趋势 。1998 
- 2000 年 期 间 在 内 容 相 似 性 上 呈 逐 步 上 升 态势 ,这 与 
前 面 学 科 整 体内 容 在 早期 的 逐步 凝聚 有 关系 ;其 后 基 
本 上 呈 逐 步 下 降 态势 ,表明 被 引 论文 与 未 被 引 论文 在 
研究 内 容 上 有 渐 行 渐 远 的 趋势 。 这 些 说 明 ,研究 内 容 
对 论文 未 被 引 有 显著 影响 。 
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一 一 被 引 - 未 被 
引 相似 度 
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图 8 1998 -2013 年 各 年 被 引 论文 与 未 被 引 
论文 内 容 向 量 的 余弦 相似 度 


图 9 是 1998 - 2013 年 各 年 被 引 论文 - 学 科 整 体 
论文 ,未 被 引 论文 -学 科 整 体 论文 高 被 引 论文 -未 被 
引 论文 的 内 容 关 键 词 向 量 的 余弦 相似 度 情况 。 从 图 9 
中 可 以 发 现 :3 条 曲线 的 基本 走势 大 致 相似 ,表明 各 年 
度 的 核心 关键 词 具有 较 高 的 相似 性 ;各 年 被 引 - SERE 
论文 的 内 容 向 量 余 弦 相 似 度 比 未 被 引 - 学 科 论文 的 内 
容 向 量 余弦 相似 度 要 高 ,表明 被 引 论文 的 内 容 与 学 科 
整体 论文 的 共同 核心 关键 词 更 多 ,与 学 科 在 整体 上 保 
持 了 较为 一 致 的 发 展 态势 ,而 未 被 引 论文 与 学 科 整体 
论文 在 共同 核心 关键 词 相 对 较 少 ,与 学 科 发 展 的 整体 
热点 有 所 背离 ;高 被 引 - 未 被 引 论文 的 内 容 向 量 余弦 
相似 度 最 低 ,表明 两 者 间 的 共同 核心 关键 词 数量 较 少 ， 
在 内 容 上 的 差异 较 大 。 


1.2 
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—9— 高 被 引 - 未 被 引 
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9 1998 -2013 年 被 引 -学科 \ 未 被 引 - 学 科 、 
高 被 引 - 未 被 引 论文 的 内 容 向 量 余弦 相似 度 


通常 来 讲 , 学 科 整 体 论文 代表 着 学 科 发 展 全 局 ,其 
高 频 关 键 词 代表 着 学 科 的 整体 研究 内 容 取向 ,是 学 科 
延续 性 发 展 的 核心 驱动 力 ;被 引 论文 与 学 科 整 体 论文 
在 内 容 关联 性 上 相 较 于 未 被 引 论文 与 学 科 整 体 论文 的 
相关 度 更 高 ,被 引 论文 与 未 被 引 论文 在 内 容 关 联 性 上 
较 低 ,一 方面 说 明 未 被 引 论文 研究 内 容 与 被 引 论文 ,学 
科 整 体 论文 有 差别 , 男 一 方面 也 表明 论文 内 容 与 当前 
学 科 基 本 发 展 态势 越 贴近 则 越 容 易 较 快 获得 引用 ;高 
被 引 论文 代表 着 学 科 领 域 的 知识 内 核 ,是 学 科 知 识 体 
系 的 核心 力量 ,在 领域 知识 传递 中 起 着 关键 性 作用 ,其 
核心 关键 词 代表 着 领域 的 基本 发 展 方向 ,未 被 引 论文 
与 高 被 引 论 文 关键 词 内 容 的 较 低 相似 度 表明 未 被 引 论 
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文 所 包含 的 知识 游离 于 学 科 知 识 内 核 之 外 ,对 学 科 知 
识 内 核发 展 贡献 相对 较 低 ,因而 其 获得 引用 的 可 能 性 
相对 降低 。 


5 ”结论 与 讨论 


5.1 主要 发 现 

5.1.1 21 世纪 初叶 是 图 书馆 情报 与 文献 学 领域 研究 
内 容 的 转折 点 “样本 领域 计量 时 间 范 畴 内 的 研究 内 容 
特征 是 探索 未 被 引 论文 内 容 影 响 因素 的 基本 约束 条 
件 。 无 论 是 向 量 内 积 值 . 欧 几 里 得 值 还 是 余弦 相似 度 
值 都 表明 图 书馆 情报 与 文献 学 科 在 21 世纪 初 形 成 较 
为 稳定 的 研究 内 容 体系 ,从 之 前 的 发 散 状态 向 凝聚 状 
态 的 演化 ,再 到 从 之 后 的 凝聚 状态 向 发 散 状 态 的 演化 。 
这 表明 学 科 领 域 的 研究 内 容 可 遵循 "发散 - 凝聚 -发 
BORER” 的 基本 模式 ,通过 发 散 来 拓展 学 科 的 研究 内 
研究 边界 ,通过 凝聚 来 凝练 学 科 的 知 


各 类 别 的 高 频 关键 词 构建 内 容 向 量 空间 ,从 相似 性 计 
算 来 探讨 论文 内 容 对 未 被 引 的 影响 程度 ,能 够 更 准确 
地 量化 不 同类 别 间 的 差异 程度 。 在 实践 中 ,首先 ,探讨 
了 样本 学 科 在 计量 窗口 中 研究 内 容 的 整体 特征 , 它 构 
成 了 论文 被 引 与 论文 未 被 引 研 究 的 知识 背景 画面 ;其 
次 ,通过 计算 被 引 论文 .未 被 引 论 文 与 学 科 整 体 论文 的 
核心 关键 词 向 量 内 积 、 欧 几 里 得 长 度 和 余弦 相似 度 ,万 
其 是 高 被 引 论文 与 未 被 引 论文 的 余弦 相似 度 , 从 数量 
特征 上 证 实 了 研究 内 容 对 论文 未 被 引 有 重要 影响 。 


本 研究 以 论文 研究 内 容 为 突破 口 ,以 关键 词 作为 
内 容 的 测度 项 目 ,通过 引入 向 量 空间 模型 分 析 未 被 引 
论文 ,被 引 论文 .学科 整体 论文 及 高 被 引 论文 在 研究 研 
究 内 容 上 的 差异 ,证实 了 未 被 引 论文 在 研究 内 容 关 注 
点 与 学 科 整 体 论文 .被 引 论文 .高 被 引 论文 都 有 明显 差 


讽 赔 核 与 核心 知识 共识 ,基于 这 些 奸 变 过 程 不 断 地 夯 


实 强 科 的 知识 硬 核 ,体现 学 科 发 展 的 稳定 性 、 延 续 性 与 


内 容 是 图 书馆 情报 与 文献 学 领域 未 被 引 现象 
要 影响 因素 ”无论 是 各 年 度 被 引 论文 ,未 被 引 论 
文 要 学 科 整 体 论文 的 关键 词 向 量 内 积 值 还 是 学 科 整 体 
KX 被 引 论文 ,未 被 引 论文 间 的 向 量 欧 几 里 得 长 度 
值 33% 论 是 被 引 论文 .未 被 引 论文 关键 词 向 量 的 余弦 相 
信用 值 还 是 各 年 被 引 论文 - 学 科 整 体 论文 ,未 被 引 论 
Jc ERU Ui c .高 被 引 论文 - 未 被 引 论文 关键 词 
向 量 的 余弦 相似 度 值 都 表明 未 被 引 论文 与 代表 背景 内 
容 交 学 科 整 体 论文 在 核心 关键 内 容 上 有 所 偏离 ,未 被 
引 论文 与 代表 受到 关注 的 被 引 论文 在 关注 内 容 上 存在 
一 定 差异 。 即 当 论 文 内 容 与 学 科 整 体 核心 内 容 、 学 科 
受 关注 的 核心 内 容 吻合 度 较 高 时 ,其 获得 引用 的 几率 
就 会 增加 ;而 当 文 献 内 容 与 这 些 核心 内 容 偏离 较 大 时 ， 
其 不 被 引用 的 几率 可 能 增加 。 因 此 ,文献 未 被 引 现象 
受到 研究 内 容 的 强烈 影响 ,内 容 是 论文 未 被 引 的 重要 
影响 因素 。 
5.2 ”对比 分析 

研究 内 容 对 论文 未 被 引 的 影响 在 诸多 研究 都 有 提 
及 -中 ,但 具体 是 怎样 的 影响 形式 及 影响 特征 并 没 
有 得 到 详细 的 论证 ;一 些 研究 从 高 被 引 论文 与 未 被 引 
论文 间 的 关键 词 分 布 来 讨论 研究 内 容 对 论文 未 被 引 的 
影响 , 仅 是 通过 对 比 两 类 不 同 数据 集中 的 关键 词 分 布 
差异 局- ,没有 对 这 些 差异 的 具体 程度 进行 计算 。 

本 研究 以 关键 词 作为 论文 内 容 的 直观 反映 ,选择 


异 , 表 明 研 究 内 容 对 论文 未 被 引 有 显著 影响 。 

本 研究 结论 由 CSSCI 所 收录 的 图 书馆 情报 与 文献 
学 样本 学 科 的 数据 获得 ,其 结论 的 普 适 性 与 推广 性 需 
要 进一步 增加 中 文 环境 下 其 它 样 本 学 科 的 相关 数据 、 
非 中 文 环境 的 样本 学 科 数 据 来 进一步 验证 ;同时 ,关键 
词 作 为 作者 给 出 的 描述 文献 内 容 的 非 规范 化 语词 ,对 
于 相同 内 容 不 同 作者 可 能 会 因 使 用 习惯 不 同 、 知 识 结 
构 差 异 而 给 出 不 同 的 描述 结果 ,而 且 即 使 是 相同 关键 
词 其 具体 内 容 的 描述 侧重 点 也 可 能 有 较 大 差异 ,尽管 
通过 大 量 的 数据 可 能 稀释 这 种 影响 ,但 这 种 影响 显然 
是 无 法 完全 避免 的 ,因此 需要 寻求 规范 化 标题 词 表 或 
氢 词 表 来 进一步 证 明 本 文 方法 的 有 效 性 ;以 学 者 hb 指 
数 特征 来 随机 选择 样本 对 象 且 只 选择 了 样本 对 象 以 第 
一 作者 身份 出 现 的 论文 数据 ,尽管 采用 无 关 标 志 可 以 
在 一 定 程度 上 避免 对 内 容 选 择 的 干扰 ,但 实践 上 可 能 
会 引发 系统 性 误差 ,这 种 情况 需要 通过 分 层 抽样 来 进 
一 步 提高 误差 控制 精度 ;向 量 长 度 选 择 具 有 较 大 的 经 
验 色彩 ,是 否 存 在 最 优化 的 向 量 长 度 取 值 也 是 值得 进 
一 步 探 索 的 问题 ;样本 数据 中 ,被 引 论文 与 未 被 引 论文 
的 时 间 窗 阔 值 选择 是 根据 引用 峰值 年 确定 的 ,如 果 采 
其 它 方法 (如 半衰期 ) 来 划分 时 间 窗 是 否 会 得 到 不 
同 的 结果 ,也 是 值得 进一步 研究 的 问题 。 所 有 这 些 问 
题 与 局 限 都 需要 在 未 来 研究 中 需要 进一步 探索 ,以 期 
得 到 更 为 一 般 性 的 结论 。 
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Art [| of the Exploration on Uncited Papers in Chinese: The Influences of Content Features Based on 
: Keywords in Paper - A Case Study of Library and Information Science 


Han Yi Wu Yu Shen Dongyang Kuang Shumei Yuan Qing 


College of Computer and Information Science, Southwest University, Chongqing 400715 
CAbstract. | Purpose/significance ] It is of great importance to study the law of uncitednessfrom content differences, 
whieh is not only the important content in studying uncitedness phenomena, but helps to expand the boundary of citation 
cofitént analysis. [ Method/process | CSSCI was selected as the source database, and library and information science was 
chosen as the sample source. According to the features of the h index, 200 scholars were selected randomly as samples, 
and their related data, recorded in CSSCI from 1998 to 2015, were downloaded. All the collected data of library and infor- 
mation science from 1998 to 2015 were downloaded, and their relevant data about cited papers and highly cited papers 
were extracted. Taking 6 years as time window, the papers cited in 1 to 3 years were defined as cited papers, and the oth- 
ers as uncited papers. The key words of uncited papers, cited papers, all discipline papers and highly cited papers were 
taken and listed according to keyword frequencies from high to low, first 50 keywords were selected to be keywords vector, 
and their inner product, Euclidean length and cosine similarity were calculated respectively. [ Result/conclusion | The re- 
sults have showed that: the research content of library and information science has been probably stable at the beginning of 
21" century; the content similarity between uncited papers and all discipline papers, cited papers, and highly cited papers 
are lower, which means the research content has a significant effect on uncited papers. 
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